Fouille de données du génome à l'aide de modèles de Markov cachés
نویسندگان
چکیده
Résumé. Nous décrivons un processus de fouille de données en bioinformatique. Il se traduit par la spécification de modèles de Markov cachés du second-ordre, leur apprentissage et leur utilisation pour permettre une segmentation de grandes séquences d’ADN en différentes classes qui traduisent chacune un état organisationnel et structural des motifs d’ADN locaux sous-jacents. Nous ne supposons aucune connaissance a priori sur les séquences que nous étudions. Dans le domaine informatique, ce travail est dédié à la définition d’observations structurées (les k-d-k-mers) permettant la localisation en contexte d’irrégularités, ainsi qu’à la description d’une méthode de classification utilisant plusieurs classifieurs. Dans le domaine biologique, cet article décrit une méthode pour prédire des ensembles de gènes co-régulés, donc susceptibles d’avoir des fonctions liées en réponse à des conditions environnementales spécifiques.
منابع مشابه
Champs de Markov conditionnels pour le traitement de séquences
Résumé. Les modèles conditionnels du type modèles de Markov d’entropie maximale et champs de Markov conditionnels apportent des réponses aux lacunes des modèles de Markov cachés traditionnellement employés pour la classification et la segmentation de séquences. Ces modèles conditionnels ont été essentiellement utilisés jusqu’à présent dans des tâches d’extraction d’information ou d’étiquetage m...
متن کاملConstruction d'attributs pour l'extraction de connaissances à partir de séquences biologiques
Résumé. Dans cet article nous étudions un problème de prétraitement de données : la construction d’attributs décrivant des séquences biologiques. Afin d’assurer l’extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est ...
متن کاملUn système de gestion de documents hétérogènes dédiés au patrimoine archéologique et gérés sur le réseau Internet. Le cas de l'épave étrusque du Grand Ribaud
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملAnalyse et application de modèles de régression pour optimiser le retour sur investissement d'opérations commerciales
Résumé. Les activités de négoce de matériaux sont un marché extrêmement compétitif. Pour les acteurs de ce marché, les méthodes de fouille de données peuvent s’avérer intéressantes en permettant de dégager des gains de rentabilité importants. Dans cet article, nous présenterons le retour d’expérience du projet de fouille de données mené chez VM Matériaux pour améliorer le retour sur investissem...
متن کاملConstruction et analyse de résumés de données évolutives : application aux données d'usage du Web
Résumé. La manière dont une visite est réalisée sur un site Web peut changer en raison de modifications liées à la structure et au contenu du site lui-même, ou bien en raison du changement de comportement de certains groupes d’utilisateurs ou de l’émergence de nouveaux comportements. Ainsi, les modèles associés à ces comportements dans la fouille d’usage du Web doivent être mis à jour continuel...
متن کامل